智能论文笔记

Overview of Abusive and Threatening Language Detection in Urdu at FIRE 2021

Maaz Amjad , Alisa Zhila , Grigori Sidorov , Andrey Labunets , Sabur Butta , Hamza Imam Amjad , Oxana Vitman , Alexander Gelbukh

分类：自然语言处理

2022-07-14

随着社交媒体平台影响的增长，滥用的影响变得越来越有影响力。自动检测威胁和滥用语言的重要性不能高估。但是，大多数现有的研究和最先进的方法都以英语为目标语言，对低资产品语言的工作有限。在本文中，我们介绍了乌尔都语的两项滥用和威胁性语言检测的任务，该任务在全球范围内拥有超过1.7亿扬声器。两者都被视为二进制分类任务，其中需要参与系统将乌尔都语中的推文分类为两个类别，即：（i）第一个任务的滥用和不滥用，以及（ii）第二次威胁和不威胁。我们提供两个手动注释的数据集，其中包含标有（i）滥用和非虐待的推文，以及（ii）威胁和无威胁。滥用数据集在火车零件中包含2400个注释的推文，测试部分中包含1100个注释的推文。威胁数据集在火车部分中包含6000个注释的推文，测试部分中包含3950个注释的推文。我们还为这两个任务提供了逻辑回归和基于BERT的基线分类器。在这项共同的任务中，来自六个国家的21个团队注册参加了参与（印度，巴基斯坦，中国，马来西亚，阿拉伯联合酋长国和台湾），有10个团队提交了子任务A的奔跑，这是虐待语言检测，9个团队提交了他们的奔跑对于正在威胁语言检测的子任务B，七个团队提交了技术报告。最佳性能系统达到子任务A的F1得分值为0.880，子任务为0.545。对于两个子任务，基于M-Bert的变压器模型都表现出最佳性能。

translated by 谷歌翻译

ReDDIT: Regret Detection and Domain Identification from Text

Fazlourrahman Balouchzahi , Sabur Butt , Grigori Sidorov , Alexander Gelbukh

分类：自然语言处理 | 人工智能 | 机器学习

2022-12-14

In this paper, we present a study of regret and its expression on social media platforms. Specifically, we present a novel dataset of Reddit texts that have been classified into three classes: Regret by Action, Regret by Inaction, and No Regret. We then use this dataset to investigate the language used to express regret on Reddit and to identify the domains of text that are most commonly associated with regret. Our findings show that Reddit users are most likely to express regret for past actions, particularly in the domain of relationships. We also found that deep learning models using GloVe embedding outperformed other models in all experiments, indicating the effectiveness of GloVe for representing the meaning and context of words in the domain of regret. Overall, our study provides valuable insights into the nature and prevalence of regret on social media, as well as the potential of deep learning and word embeddings for analyzing and understanding emotional language in online text. These findings have implications for the development of natural language processing algorithms and the design of social media platforms that support emotional expression and communication.

translated by 谷歌翻译

Digital Twin in Safety-Critical Robotics Applications: Opportunities and Challenges

Sabur Baidya , Sumit K. Das , Mohammad Helal Uddin , Chase Kosek , Chris Summers

分类：机器人

2022-09-26

数字双技术被认为是现代工业发展的组成部分。随着技术Internet技术（IoT）技术的快速发展以及自动化趋势的增加，虚拟世界与物理世界之间的整合现在可以实现生产实用的数字双胞胎。但是，数字双胞胎的现有定义是不完整的，有时是模棱两可的。在此，我们进行了历史审查，并分析了数字双胞胎的现代通用观点，以创建其新的扩展定义。我们还审查并讨论了在安全至关重要的机器人技术应用中数字双胞胎中现有的工作。特别是，由于环境挑战，数字双胞胎在工业应用中的使用需要自动和远程操作。但是，环境中的不确定性可能需要对机器人进行仔细监控和快速适应，这些机器人需要防止安全和成本效益。我们展示了一个案例研究，以开发针对安全至关重要的机器人臂应用框架，并提出系统性能以显示其优势，并讨论未来的挑战和范围。

translated by 谷歌翻译

Edge-assisted Collaborative Digital Twin for Safety-Critical Robotics in Industrial IoT

Sumit K. Das , Mohammad Helal Uddin , Sabur Baidya

分类：机器人

2022-09-26

Digital Twin Technology在现代工业发展中起着关键作用。尤其是，随着技术的技术进步（IoT）以及自主权的日益增长的趋势，配备多传感器的机器人技术可以创建实用的数字双胞胎，这在运营，维护和安全的工业应用程序中特别有用。在此，我们演示了一个现实世界中的数字双胞胎，其中包括安全至关重要的机器人应用程序，并带有Franka-Emika-Panda机器人臂。我们开发并展示了一个避免动态障碍物的边缘辅助协作数字双胞胎，这对于在工业物联网中不确定和动态的环境中运行时可以实时适应机器人。

translated by 谷歌翻译

UrduFake@FIRE2021: Shared Track on Fake News Identification in Urdu

Maaz Amjad , Sabur Butt , Hamza Imam Amjad , Grigori Sidorov , Alisa Zhila , Alexander Gelbukh

分类：自然语言处理

2022-07-11

这项研究报告了第二个名为Urdufake@Fire2021的共享任务，以识别乌尔都语语言的假新闻检测。这是一个二进制分类问题，在其中，任务是将给定的新闻文章分为两类：（i）真实新闻，或（ii）假新闻。在这项共同的任务中，来自7个不同国家（中国，埃及，以色列，印度，墨西哥，巴基斯坦和阿联酋）的34个团队注册参加了共同的任务，18个团队提交了他们的实验结果，11个团队提交了他们的技术报告。所提出的系统基于各种基于计数的功能，并使用了不同的分类器以及神经网络体系结构。随机梯度下降（SGD）算法的表现优于其他分类器，并达到0.679 F-SCORE。

translated by 谷歌翻译

Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2021

Maaz Amjad , Sabur Butt , Hamza Imam Amjad , Alisa Zhila , Grigori Sidorov , Alexander Gelbukh

分类：自然语言处理 | 人工智能

2022-07-11

在当代世界中，自动检测假新闻是一项非常重要的任务。这项研究报告了第二项共享任务，称为Urdufake@fire2021，以识别乌尔都语中的假新闻检测。共同任务的目的是激励社区提出解决这一至关重要问题的有效方法，尤其是对于乌尔都语。该任务被视为二进制分类问题，将给定的新闻文章标记为真实或假新闻文章。组织者提供了一个数据集，其中包括五个领域的新闻：（i）健康，（ii）体育，（iii）Showbiz，（iv）技术和（v）业务，分为培训和测试集。该培训集包含1300篇注释的新闻文章 - 750个真实新闻，550个假新闻，而测试集包含300篇新闻文章 - 200个真实，100个假新闻。来自7个不同国家（中国，埃及，以色列，印度，墨西哥，巴基斯坦和阿联酋）的34个团队注册参加了Urdufake@Fire2021共享任务。在这些情况下，有18个团队提交了实验结果，其中11个提交了技术报告，与2020年的Urdufake共享任务相比，这一报告要高得多，当时只有6个团队提交了技术报告。参与者提交的技术报告展示了不同的数据表示技术，从基于计数的弓形功能到单词矢量嵌入以及使用众多的机器学习算法，从传统的SVM到各种神经网络体系结构，包括伯特和罗伯塔等变形金刚。在今年的比赛中，表现最佳的系统获得了0.679的F1-MACRO得分，低于过去一年的0.907 F1-MaCro的最佳结果。诚然，尽管过去和当前几年的培训集在很大程度上重叠，但如果今年完全不同，则测试集。

translated by 谷歌翻译